Зчитування, індексація та аналіз доріжки індексації даних Web3 у кількох словах

У статті досліджено історію розвитку доступності даних Блокчейн, порівняно особливості трьох протоколів обробки даних: The Graph, Chainbase та Space and Time щодо архітектури та застосування технології ШІ. Відзначається, що послуги обробки даних Блокчейн розвиватимуться в напрямку інтелектуалізації та безпеки, а також продовжуватимуть відігравати важливу роль у якості базової інфраструктури промисловості в майбутньому.

1. Вступ

Від початку першої хвилі dApp Etheroll, ETHLend та CryptoKitties у 2017 році до сьогоднішнього розмаїття фінансових, ігрових та соціальних додатків на різних блокчейнах, коли ми говоримо про застосування у блокчейні Децентралізація, чи ви коли-небудь задумувалися над джерелами різноманітних даних, які використовуються в цих dApp під час взаємодії?

2024 року увага сфокусована на штучному інтелекті та Web3. У світі штучного інтелекту дані подібні до джерела життя для його зростання та еволюції. Як рослини потребують сонячного світла та води для здорового зростання, системи штучного інтелекту також залежать від величезної кількості даних для постійного "навчання" та "мислення". Без даних Алгоритм штучного інтелекту, як найвитонченіша будівля, не зможе розкрити свій інтелект та ефективність.

У цій статті з погляду доступності даних в Блокчейн (Data Accessibility) детально проаналізовано еволюцію індексації даних в галузі розвитку і порівняно старий протокол індексації даних The Graph з новими Блокчейн протоколами Chainbase і Space and Time, особливу увагу приділено порівнянню особливостей в області обслуговування даних та архітектури продуктів цих двох нових протоколів, що поєднуються з технологією штучного інтелекту.

2. Складність і простота індексації даних: від вузла Блокчейн до повної ланцюгової бази даних

2.1 Джерело даних: вузол Блокчейн

З моменту першого ознайомлення з тим, що таке Блокчейн, ми часто бачимо таке речення: Блокчейн - це реєстраційна книга Децентралізація. Блокчейн Нода є основою всієї мережі Блокчейн і несе відповідальність за реєстрацію, зберігання та передачу всіх транзакційних даних у ланцюжку. Кожна Нода має повний дублікат даних Блокчейн, що забезпечує Децентралізація мережі. Однак для звичайного користувача будувати і підтримувати свою власну Нода Блокчейн - не проста справа. Це потребує не тільки професійної технічної кваліфікації, але й високих витрат на обладнання та пропускну здатність. Водночас, звичайні Нода мають обмежену можливість запиту, не в змозі запитувати дані у форматі, потрібному розробникам. Тому, незважаючи на теоретичну можливість кожній людині запустити свою власну Нода, на практиці користувачі зазвичай надають перевагу стороннім сервісам.

Для вирішення цієї проблеми з'явилися постачальники Нод RPC (віддалений виклик процедур). Ці постачальники відповідають за вартість та управління Нодою та надають дані через точки доступу RPC. Це дозволяє користувачам легко отримувати доступ до даних блокчейну без необхідності будувати свою власну Ноду. Публічні точки доступу RPC є безкоштовними, але обмежені швидкістю, що може негативно вплинути на користувацький досвід додатків. Приватні точки доступу RPC надають кращу продуктивність шляхом зменшення навантаження, але навіть для простого отримання даних потрібно багато зворотних повідомлень. Це робить їх запити важкими, а ефективність складних запитів даних низькою. Крім того, приватні точки доступу RPC часто не масштабуються та несумісні з різними мережами. Але стандартизоване API-інтерфейси постачальників Нод дозволяють користувачам знизити поріг доступу до даних у блокчейні та покласти основу для подальшого аналізу та використання даних.

2.2 Аналіз даних: від початкових даних до використовуваних даних

Дані, отримані від вузлів Блокчейн, часто є початковими даними, які зашифровані та закодовані. Ці дані, хоча зберігають цілісність та безпеку Блокчейну, також ускладнюють розуміння даних. Для звичайного користувача або розробника безпосереднє опрацювання цих початкових даних вимагає значних технічних знань та обчислювальних ресурсів.

Процес аналізу даних стає особливо важливим в цьому контексті. Шляхом аналізу складних прототипних даних і їх перетворення в більш зрозумілий і зручний формат користувачі можуть більш наочно розуміти і використовувати ці дані. Успішність аналізу даних безпосередньо впливає на ефективність та ефективність застосування даних Блокчейн, це ключовий етап у всьому процесі індексації даних.

2.3 Еволюція індексатора даних

Зі збільшенням обсягу даних у Блокчейні зростає потреба в індексаторах даних. Індексатори грають важливу роль у організації даних у блокчейні та їх відсиланні до бази даних для подальшого запиту. Принцип роботи індексатора полягає в індексуванні даних у Блокчейні та забезпеченні їх постійної доступності за допомогою мови запитів, подібної до SQL (наприклад, API GraphQL). Забезпечуючи єдиний інтерфейс для запитів даних, індексатори дозволяють розробникам швидко та точно отримувати потрібну інформацію за допомогою стандартизованої мови запитів, що значно спрощує процес.

Різні типи індексаторів оптимізують пошук даних різними способами:

· Індексатор повного вузла: ці індексатори працюють на повному вузлі Блокчейн і безпосередньо витягують дані з нього, щоб гарантувати їх повноту та точність, але це потребує значних обсягів зберігання та обробки.

· Легкі індексатори: ці індексатори використовують вузол Нода для отримання конкретних даних за потребою, що дозволяє зменшити вимоги до зберігання, але може збільшити час запиту.

· Спеціалізовані індексатори: Ці індексатори спеціалізуються на певних типах даних або конкретних блокчейнах, що дозволяє оптимізувати пошук певних випадків використання, наприклад, для пошуку Невзаємозамінний токен даних або транзакцій з Децентралізовані фінанси.

· Агрегатор індексів: ці індексатори витягують дані з кількох блокчейнів та джерел, включаючи інформацію поза блокчейном, і надають єдиний інтерфейс для запитів, що особливо корисно для багатоланцюжкових додатків.

Наразі, режим архівування Ноди Ethereum (Archive Node) в клієнті Geth займає приблизно 13,5 ТБ простору для зберігання, тоді як у клієнта Erigon вимоги до архівування становлять приблизно 3 ТБ. Зі зростанням блокчейну, обсяги зберігання даних Ноди архівування також збільшуються. За такими великими обсягами даних, протоколи головного пошуку не тільки підтримують індексацію багатьох ланок, але і настроюють каркаси розбору даних для різних потреб застосунків. Наприклад, каркас 'Підграф' (Subgraph) в The Graph є типовим прикладом.

Поява індексатора значно підвищила ефективність індексації та запитів даних. Порівняно з традиційними точками доступу до RPC, індексатор може ефективно індексувати великий обсяг даних та підтримувати швидкі запити. Ці індексатори дозволяють користувачам виконувати складні запити, легко фільтрувати дані та аналізувати їх після витягування. Крім того, деякі індексатори підтримують агрегацію даних з декількох джерел блокчейну, уникнення проблеми необхідності розгортання декількох API в багатоланцюжкових додатках. Завдяки розподіленому виконанню на кількох Нодах, індексатори не тільки забезпечують більшу безпеку та продуктивність, але й зменшують ризик перебоїв та відключень, які можуть бути пов'язані з централізованим постачальником RPC.

У порівнянні з цим індексатор дозволяє користувачу отримати потрібну інформацію без необхідності обробки складних підлеглих даних, за допомогою попередньо визначеної мови запитів. Цей механізм значно підвищує ефективність та надійність пошуку даних і є важливим інноваційним рішенням для доступу до Блокчейн даних.

2.4 Повний ланцюжок бази даних: спрямований на пріоритет потоків

Використання індексів Нода для запитів даних часто означає, що API стає єдиним шлюзом для обробки даних у блокчейні. Однак, коли проект переходить до етапу розширення, часто потрібне більш гнучке джерело даних, яке стандартні API не можуть забезпечити. Зі складністю вимог додатків, початкові індексатори даних та їх стандартні формати індексів поступово стають недостатніми для задоволення все більш різноманітних потреб у запитах, таких як пошук, взаємодія крос-ланцюговий доступ або відображення даних поза блокчейном.

У сучасній архітектурі потокових даних «метод пріоритету потоку» вже став одним із рішень для подолання обмежень традиційної пакетної обробки, що дозволяє здійснювати витягування, обробку та аналіз даних в режимі реального часу. Цей перехід у парадигмі дозволяє організаціям миттєво реагувати на вхідні дані, що дозволяє майже миттєво отримувати інсайти та приймати рішення. Аналогічно, розвиток постачальників послуг блокчейн-даних також рухається в напрямку побудови потоків даних блокчейну, традиційні постачальники індексаторів поступово випускають продукти, що отримують реальні дані блокчейну у форматі потоку, наприклад Substreams від The Graph, Mirror від Goldsky, а також реальні потокові озера даних, що генеруються на основі блокчейну, такі як Chainbase і SubSquid.

Ці послуги спрямовані на вирішення потреби в реальному часі аналізу та наданні більш повної можливості запитів до транзакцій у Блокчейні. Точно так само, як архітектура «потік-спочатку» революціонізує обробку та споживання даних у традиційному каналі даних за допомогою Падіннязатримки та підвищення реагування, ці провайдери послуг потоку даних у Блокчейні також сподіваються підтримати розвиток більшого спектру додатків та допомогти у аналізі даних у блокчейні за допомогою більш передових та зрілих джерел даних.

З погляду сучасного каналу даних, ми переосмислюємо виклики управління, зберігання та надання даних у блокчейні, щоб побачити всі потенційні можливості. Коли ми починаємо дивитися на індексатори, такі як підграф і ETL Ethereum, як потік даних у каналі даних, а не як кінцевий результат, ми можемо уявити світ, де для будь-якого бізнес-випадку можна налаштувати високопродуктивний набір даних.

3. AI + База даних? Подробний порівняльний аналіз The Graph, Chainbase, Space та Time

3.1 Граф

The Graph мережа використовує децентралізовану Нода мережу для реалізації індексації та запитів даних з кількох ланцюгів, щоб забезпечити зручний доступ розробників до індексації даних блокчейну та будівництва додатків у блокчейні. Основні продуктові моделі - це ринок виконання запитів на дані та ринок кешування індексів даних, обидва ринки, які в сутності, обслуговують потреби користувачів у запитах продуктів, де ринок виконання запитів на дані конкретно полягає в тому, що споживачі обирають відповідну Нода індексу для надання платних послуг за потрібними даними, а ринок кешування індексів даних - це ринок, на якому Нода індексу, керуючись історичною популярністю підграфів, збирає плату за запити та мобілізує ресурси за вимаганням кураторів у блокчейні для виходу підграфів.

Підграфи (Subgraphs) є основною структурою даних у мережі The Graph. Вони визначають, як витягти та перетворити дані з блокчейну у запитуванний формат (наприклад, схема GraphQL). Будь-хто може створювати підграфи, і кілька додатків можуть повторно використовувати ці підграфи, що підвищує повторне використання даних та ефективність використання.

Мережа The Graph складається з чотирьох ключових ролей: індексаторів, кураторів, делегаторів та розробників, які спільно забезпечують підтримку даних для додатків web3. Ось їхні відповідальності:

· Індексатор: Індексатор - це оператор вузлів The Graph, який застейкав GRT (місцевий токен The Graph) для участі в мережі, надаючи послуги індексації та обробки запитів.

· Delegator: Delegator це користувачі, які здійснюють застейкання Токензастейкати GRT для підтримки роботи індексованих Нода. Delegator отримує частину винагороди за допомогою Нода, які вони делегують.

· Куратор: Куратор відповідає за те, які підграфи мережі повинні бути індексовані. Куратор допомагає забезпечити пріоритетну обробку цінних підграфів.

· Розробник: На відміну від перших трьох постачальників, розробник є споживачем і є основним користувачем The Graph. Вони створюють та надсилають підграфи до мережі The Graph та очікують на задоволення запитів даних.

На даний момент The Graph повністю переходить до децентралізованого хостингу підграфів, між різними учасниками є обіг економічних стимулів, що забезпечують роботу системи:

· Нагорода за блок Нода: Нагорода за блок Нода отримує прибуток з витрат споживача на оплату запитів та частини GRT ТокенБлок нагороди.

· Винагорода для довірителя: довірителі отримують частину винагороди через індексНода, який вони підтримують.

· Нагороди для кураторів: якщо куратори сигналізують про цінний підграфік, вони можуть отримати частину винагороди з плати за запити.

Фактично, продукти The Graph також швидко розвиваються в хвилі штучного інтелекту. Як одна з основних команд розробників екосистеми The Graph, Semiotic Labs завжди працювала над використанням штучного інтелекту для оптимізації індексування цін та користувацького досвіду запитів. Наразі розроблені інструменти AutoAgora, Allocation Optimizer та AgentC від Semiotic Labs окремо покращують продуктивність екосистеми у багатьох аспектах.

· AutoAgora використовує динамічний механізм ціноутворення, який на основі обсягу запитів та використання ресурсів автоматично коригує ціни, що дозволяє оптимізувати стратегію ціноутворення і забезпечити конкурентоспроможність та максимальний дохід індексатора.

· Оптимізатор розподілу досконально вирішує складні проблеми розподілу ресурсів дочірніх графіків та допомагає індексаторам досягти найкращих конфігурацій ресурсів для покращення доходу та продуктивності.

· AgentC - це експериментальний інструмент, який дозволяє користувачам отримувати доступ до блокчейн-даних The Graph за допомогою природної мови, що поліпшує користувацький досвід.

Застосування цих інструментів дозволяє The Graph поєднувати штучний інтелект для подальшого покращення інтелектуалізації та користувацької дружньої системи.

3.2 Ланцюгова база

Chainbase - це мережа повного ланцюга даних, яка об'єднує всі дані Блокчейн на одній платформі, що спрощує розробку та підтримку програм. Його унікальні функції включають:

· Real-time Data Lake: Chainbase надає спеціальний реальний час для потоку даних Блокчейн, що дозволяє отримувати доступ до даних в момент їх генерації.

· Подвійна ланцюгова архітектура: Chainbase побудувала виконавчий шар на основі Eigenlayer AVS, що працює паралельно з алгоритмом консенсусу CometBFT. Цей дизайн підвищує програмованість та комбінуваність даних крос-ланцюгової взаємодії, підтримує високу майстерність, низьку затримку та остаточність, а також підвищує безпеку мережі за допомогою подвійної застейкати моделі.

· Інноваційний стандарт формату даних: Chainbase впроваджує новий стандарт формату даних, відомий як "рукописи", що оптимізує структуризацію та використання даних у галузі шифрування.

· Модель світу шифрування: Завдяки своїм великим ресурсам даних Блокчейн, Chainbase в поєднанні з технологією моделей штучного інтелекту створює AI-модель, яка може ефективно розуміти, передбачати та взаємодіяти з Блокчейн-транзакціями. Наразі була запущена базова версія моделі Theia, доступна для громадськості.

Ці функції дозволяють Chainbase виділятися в Блокчейн індексному протоколі, з особливим акцентом на доступність реального часу, інноваційний формат даних та створення більш розумних моделей для покращення інсайтів шляхом поєднання даних у блокчейні та поза ним.

AI-модель Theia від Chainbase - це ключова особливість, що відрізняє її від інших протоколів обслуговування даних. Theia, заснована на моделі DORA, розробленій NVIDIA, поєднує дані у блокчейні та поза ним, а також часові та просторові події, вивчає та аналізує шифрування, реагує за допомогою причинно-наслідкового мислення, щоб глибше досліджувати потенційну цінність та закономірності даних у блокчейні та надавати користувачам більш інтелектуальне обслуговування даних.

Дані, що працюють на основі штучного інтелекту, роблять Chainbase не просто платформою для обслуговування блокчейн-даних, а конкурентоспроможним постачальником інтелектуальних послуг з обробки даних. За допомогою потужних даних та прогресивного аналізу штучного інтелекту, Chainbase може надавати широкий спектр інсайтів у дані та оптимізувати процес обробки даних користувачів.

3.3 Простір і час

Space and Time (SxT) призначений для створення перевіреного обчислювального шару, який розширює Децентралізація даних на Доказ із нульовим розголошенням, щоб забезпечити надійну обробку даних для Смарт-контракт, великих мовних моделей та підприємств. Наразі Space and Time отримав останній раунд фінансування серії A в розмірі 20 мільйонів доларів США, який очолюють Framework Ventures, Lightspeed Faction, Arrington Capital та Hivemind Capital.

У галузі індексації та перевірки даних Space and Time впроваджують новий технологічний шлях - Proof of SQL. Це інноваційна технологія, розроблена Space and Time, що забезпечує, що SQL-запити, які виконуються на Децентралізація даних, є недоступними для модифікації та перевірки. Під час виконання запиту Proof of SQL генерує шифрувальне підтвердження, яке перевіряє цілісність та точність результатів запиту. Це підтвердження додається до результатів запиту, що дозволяє будь-яким валідаторам (наприклад, смартконтрактам) незалежно підтверджувати, що дані не були піддані модифікації під час обробки. Традиційні мережі Блокчейн зазвичай залежать від Механізм консенсусу для перевірки достовірності даних, тоді як Proof of SQL від Space and Time реалізує більш ефективний спосіб перевірки даних. Зокрема, у системі Space and Time одна Нода відповідає за отримання даних, тоді як інші Нода перевіряють достовірність цих даних за допомогою zk-технології. Цей підхід змінює спосіб, яким різні Нода під Механізм консенсусу повторно індексують однакові дані, що призводить до витрат ресурсів для отримання даних та покращує загальну продуктивність системи. З розвитком цієї технології вона стане відправною точкою для створення продуктів у традиційних галузях, де надійність даних є ключовим фактором, використовуючи дані Блокчейн.

Тим часом, SxT постійно співпрацює з Лабораторією спільної інновації Microsoft AI, щоб прискорити розробку генеративних інструментів штучного інтелекту, що дозволить користувачам легше отримувати доступ до обробки даних блокчейну за допомогою природної мови. Зараз в Space and Time Studio користувачі можуть випробувати введення запитів природною мовою, і штучний інтелект автоматично перетворить їх на SQL та виконає запити відповідно до потреб користувача.

3.4 Порівняння відмінностей

4. Висновок та перспективи

Загальне зазначення, технологія індексації даних блокчейну, починаючи з початкового джерела даних Нода, через розвиток аналізаторів даних та індексаторів, завершила еволюцію в обслуговування повного ланцюжка даних, яке забезпечується штучним інтелектом, пройшла послідовний процес удосконалення. Цей постійний розвиток технологій не лише покращив ефективність та точність доступу до даних, а й надав користувачам неперевершені інтелектуальні враження.

Передбачаючи майбутнє, з розвитком технологій штучного інтелекту та доказів з нульовим розголошенням (зок-СНАРКи) та інших нових технологій, послуги з обробки блокчейн-даних стануть ще більш інтелектуальними та безпечними. Ми маємо всі підстави вважати, що в майбутньому послуги з обробки блокчейн-даних продовжать відігравати важливу роль як базова інфраструктура, надаючи потужну підтримку прогресу та інновацій у галузі.

Заява:

Цей текст був перепечатаний з [[Trustless Labs](https://x.com/TrustlessLabs/status/1833815530647834843)]. Авторські права належать оригінальному автору [Trustless Labs]. Якщо у вас є питання щодо цієї перепублікації, будь ласка, зв'яжіться з командою [Gate Learn](https://www.gate.io/questionnaire/3967], і вони якомога швидше оброблять ваш запит згідно відповідних процедур.
Відмова від відповідальності: погляди та думки, висловлені в цій статті, виражають лише особисту думку автора і не становлять жодних інвестиційних порад.
Інші мовні версії статей перекладає команда Gate Learn; без згадки [Gate.io](http://Gate.io) заборонено копіювати, поширювати або плагіатити перекладені статті.

GRT-3.95%

SPACE-8.15%

Переглянути оригінал

Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.

1 лайків